Dane

Mój zbiór danych przedstawia osoby podejrzane o występowanie choroby wieńcowej. Zmienne zawierają wyniki różnych badań, poszczególne z nich zostaną omówione poniżej.

Będę korzystał z modelu SVC ponieważ nasze analizy pokazały, że jest on najlepszy do naszego problemu

Zadanie 1

Wybieramy pierwszą obserwację ze zbioru testowego. Jest to 68 letni mężczyzna z wysokim choresterolem, bólem niedławicowym, poziomem cukru powyżej 120, odwracalną wadą serca.

Ma on chorobę wieńcową. Nasz model również zaklasyfikował go jako chorego.

Zadanie 2

Nasze dane składają się głownie ze zmiennych binarnych przez co metoda CP nie jest najbardziej optymalną, ale mimo to może dać ciekawe wyniki, takie jak:

Zadanie 3

Wziąłem dwie obserwację o różnych wartościach targetu. Dzięki temu możemy zauważyć pewien trend pojawiający się w większości predykcji.
Kiedy pacjent jest zdrowy to wzrost cholesterolu wpływa na zwiększenie predykcji, a u osoby chorej zmniejsza. Tak jak w zadaniu 2, może to być spowodwane obserwacją lekarską osób z dużym cholesterolem.
Podobny wniosek można wyciągnąć względem zmiennej cp_a = 1 której występowanie u osoby chorej jest dobrym obiawem ponieważ oznacza brak inny, poważniejszych rodzajów bólu.

Wnioski

Uważam, że narzędzie CP nie jest dobrą metodą do badania obserwacji z naszego zbioru, ponieważ większość istotnych zmiennych w naszym modelu jest kategoryczna, a w tej metodzie chodzi o obserwację predykcji w zależności od niewielich wachcań zmiennych. Mimo to dzięki możemy zaobserwować dynamikę predykcji według zmiennych ciągłych, warte odnotowania jest to że wiek pacjentów ma marginalny wpływ na wynik modelu oraz to jak wpływ zmiennej chol jest zależny od wartości targetu.